许多现实世界中的问题涉及多个可能相互矛盾的目标。多目标增强学习(MORL)方法已经出现了通过最大化偏好矢量加权的关节目标函数来解决这些问题。这些方法发现固定的定制策略对应于训练过程中指定的偏好向量。但是,设计约束和目标通常在现实生活中动态变化。此外,存储每个潜在偏好的策略是不可扩展的。因此,通过单个训练在给定域中获得整个偏好空间的一组Pareto前溶液至关重要。为此,我们提出了一种新颖的Morl算法,该算法训练一个通用网络以覆盖整个偏好空间。提出的方法是偏好驱动的MORL(PD-MORL),利用偏好作为更新网络参数的指导。在使用经典深海宝藏和果树导航基准测试的PD-MORL之后,我们评估了其在挑战多目标连续控制任务方面的性能。
translated by 谷歌翻译